4ye含泪用python爬取了自己的公众号粉丝数据
4ye含泪用python爬取了自己的公众号粉丝数据
小伙伴们好呀,最近本来是在捣鼓Gateway的知识点的,结果被一件事情搞得心不在焉 哈哈哈哈,结果不得不先鸽下~ 搞完这件事情再继续哦!!ε=ε=ε=(~ ̄▽ ̄)~
本来这篇文章得昨天发的,可是出了大大的意外~ (表情👉:) ( o=^•ェ•)o ┏━┓
我以后尽量多准备些备用文章 哈哈哈哈,免得经常断档~ (~o ̄3 ̄)~
起因
我先简单描述下事情滴经过~
由于最近过年过节发滴红包频繁些~ 导致有好多好友来加我,本想搞个粉丝群活跃下气氛,结果发现来滴怕不是机器人咯,这抢红包滴速度飞快呀,而且 4ye 做事太草率了 没有先验证对方是不是真的粉丝 想进群的都给拉进去了 事后才觉得哪里不对劲!过分! ( ﹁ ﹁ ) ~→
坑🕳
想着既然已经进群了,那我就自己一个个排查下好了(虽然也就那么12345678个人 ... ) (ˉ▽ˉ;)...
那一刻我还傻傻地以为微信可以轻松地导出群成员~
尝试到最后发现web端早不能用了 😵
但是 4ye我头铁,不肯放弃,愣是想从技术角度上去摸索下,结果搞了老半天都没有搞定 我晕
ps:不过现在我有新的想法想尝试下了 嘿嘿 卖个关子先~
正题
简单介绍下公众号的特征~
公众号有个人的,有政府组织的,还有企业的~
4ye的公众号是个人的~ 😝
这也是为啥有小伙伴在公众号后台留言我看到直接回复他 哈哈哈哈
当然小伙伴还是加我微信才能好好沟通~
没有接口权限
个人的公众号是没有办法通过微信认证的,所以下面很多接口都没有权限的(不然我也不用自己去爬了 😵)
结果数据
最后的效果如图~
将拿到的 用户名称和头像 存取到文本中,
为啥存起来呢~ 当然是当个小数据,为了后面找出群里的假粉做准备~😝
后面有空也可以做下词云看看 😁(给你们一些小惊喜~ 😋)
爬取思路
当然得先在后台分析研究下用户列表,将想要的页面数据和获取下一页发出的 API 进行分析 ,有兴致的小伙伴们可以先自己研究下哦 ~
这里就简单说下用到的包 (注意这里使用到 HTTP2.0
了哦~)
import requests
from bs4 import BeautifulSoup
from hyper.contrib import HTTP20Adapter
还有爬取的数据出现中文乱码的话 记得设置 res.encoding = 'UTF-8'
window下写文件时可能也要设置 utf8 哦 fo = open("fans.txt", "a+", encoding='utf-8')
最后
我也收拾收拾准备回广州啦~ seeyou😝
谢谢可爱又帅气的大佬们的观看!祝您 天天开心!😄
感谢您的关注!您的每个关注,都是博主生发的动力 😝
点个“在看”表示朕
已阅
合成大西瓜之抱歉~ 我只有大西瓜和刀剑神域~!!
了解这些,对在学或者想学编程的你很重要!!!
2021了,你知道在哪里获取优质的学习资源吗?